「世界模型」是一種人工智慧的取向,旨在讓智慧體能夠理解並模擬外部互動世界或環境,從而提升其決策與規劃能力。
世界模型的核心概念包括:
- 內部模擬現實:它不像傳統機器學習僅將輸入映射到輸出,而是建構一個現實的內部模擬。這讓AI系統能對世界形成豐富的內部理解,類似於人類使用心智模擬來預測結果並做出決策。
- 理解「為何」:世界模型不僅預測會發生什麼,更重要的是理解「為何」會發生。
- 從人類思維中汲取靈感:它借鑒了人類自然發展出的世界心智模型,將感官的抽象表徵轉化為對周遭更具體的理解。
- 超越感知與反應:最終目標是讓AI能夠像人類一樣「夢想」、想像整個世界、預測未來情境並在執行前進行規劃。
- 基礎世界模型:例如Genie 2,它是一種基礎世界模型,能夠生成無盡多樣的、可動作控制的、可玩的3D環境,用於訓練和評估具身代理。
世界模型通常包含以下核心部分:
1. 表徵學習(Representation Learning)/ 感知模型(Vision Model V):
- 功能:將高維度感官數據(如圖像、文本或影片)壓縮成有意義的低維度表徵。
- 實現:通常使用變分自編碼器(VAE)或類似架構,將輸入編碼到潛在空間。I-JEPA使用視覺Transformer (ViT) 作為上下文編碼器來處理可見的上下文區塊。
- 目的:捕獲環境的基本特徵,同時過濾掉無關的噪音。
2. 預測模型(Prediction Model)/ 記憶模型(Memory Model M):
- 功能:根據過去和現在的數據預測環境的未來狀態。它還能夠預測其他代理的行為。
- 實現:通常使用循環神經網路(RNN)或Transformer來建模環境中的時間依賴關係。Genie 2是一個自迴歸潛在擴散模型,利用大型Transformer動態模型來處理潛在幀。I-JEPA的預測器是一個狹窄的ViT。
- 目的:幫助AI學習動作如何影響下一個狀態,從而預測未來情境。Yann LeCun將其描述為一個「隱藏狀態預測器」(Pred()),用於計算 s(t+1),並使用潛在變數 z(t) 來表徵一系列合理的預測。
3. 規劃與決策模型(Planning and Decision-Making)/ 控制器(Controller C):
- 功能:利用學到的模型來模擬不同的動作,並選擇最佳的行動方案。
- 實現:一個輕量級的策略網路,在世界模型創建的模擬環境中運作,從而使訓練更高效。
- 目的:使AI能夠根據想像的情境進行規劃和採取行動。
世界模型展現了廣泛的能力,並在多個領域具有潛在應用:
- 環境模擬與生成:模擬虛擬世界,包括採取任何行動的後果。
- 預測與理解:能夠理解行為背後的潛在原理,而非僅僅觀察到的模式。
- 決策與規劃:通過深層次理解推理出實現目標的行動序列,實現高效的零樣本決策制定和規劃能力。
- 通用性與效率:能更好地泛化並以更少的監督進行學習,適用於標記數據稀缺或需要戰略決策的環境。
- 新興能力:具備「長時記憶」能力,能夠記住不再視野內的環境部分,並在重新可見時準確呈現。能夠生成與行動一致的、多樣的軌跡,模擬反事實經驗以訓練代理。
如果想要更白話一點的介紹,可以看最近 PanSci 的介紹影片。